AWS Glueは金食い虫
「Data分析で必要な分のRAM」を用意する必要がある
GlueでのETL処理は「Sparkに合わせた形」で記載する必要がある
Glueは「DPU」という単位でComputing Resourceを用意する 1 個の DPU (Data Processing Unit) では 4 つの vCPU と 16 GB のメモリが提供されます。
内部ではSparkが動くため「メモリ(=RAM)」の大きさが死活問題
Pysparkで記述された「1工程」で必要なDataは全て「一度RAMに乗せる」必要がある
coding時に「この一行(=処理)はどれほどの規模のDataを対象に行うか」を考える必要がある